Skip to content

次数分布

标签
学习/心理学
字数
1857 字
阅读时间
8 分钟

本章指南

分析数据需要做的第一步就是进行描述统计。描述统计是用来整理、概括和简化数据的统计方法。在描述统计中,我们可以运用次数分布来将数据分门别类进行整理。本章我们将学习次数分布表、次数分布图、次数分布的形状并掌握百分位数、百分位等级和插值法。

学习要点

  1. 学会作次数分布,累计次数分布,和分组次数分布表;
  2. 学会用茎和叶图,直方图,棒图,线图表达次数分布;
  3. 了解正偏态分布和负偏态分布;
  4. 掌握百分位数和插值法。

次数分布表

简单次数分布表 (Simple Frequency Table)

将相同值的数据归为一组后,可以得到每个值出现的次数,将这些次数以表的形式表示出来,将数据 (X) 从小到大排成一列,再在另一列列出每个数值出现的次数 (f),这样就得到了最简单的次数分布表。

简单次数分布表中 f 列的每格列出的是数值出现的次数,要计算出所有数据的个数,我们只需要将 f 列的所有数据相加,即:

N=f

有时候我们需要计算变量总和,这时候只要将所有的分数相加,即:

N=fX

比例 (proportions) 就是全组中取值为 X 的比例,计算公式为:

p=fN

百分比 (percentages) 就是将小数形式的比例乘以 100 转换而成的。

分组次数分布表

当样本可取的数据的数值比较多时,我们就需要对数值进行分组。进行分组数据统计,关键的一点就是划分数据区间,也就是确定每组的取值范围。每组中包含的数据值的最大值与最小值的差距我们称为组距,一般来说,81-90 的数据组,我们认为 80.5 为数据值的最小值,而 90.5 为数据的最大值。全部数据的最大值与最小值的差距叫做全距。而当组数确定之后,我们可以大概确定组距,三者的关系为:

组距=全距组数

当然,组距一般取较为简单的数字,如 10 或者 5 的倍数,而且每组的起点也应该尽量简单。

次数分布图

直方图 (histogram),棒图 (bar graph)

  • 直方图,适用于等距或等比数据,横轴表示数据 X,纵轴表示次数 f,以数据间的直方条表示次数分布。直方条的高度表示次数,宽度表示精确区间。
  • 当数据是命名或顺序测度时,则用棒图表示次数分布,每个直方条之间留有一定的空间。

折线图 (frequency distribution polygon)

  • 折线图,也叫次数分布多边图,适用于等距或比例型数据,将每个 X 值对应的次数点连成折线,以线条表示数据的变化趋势。

茎叶图 (stem and leaf display)

  • 茎叶图,可以实现不用分组次数分布表来表示众多的数据。
  • 在正式的报告中,一般不使用茎叶图。

茎和叶图

在茎叶图中,所有的数据被分为两部分:第一位数字作为“茎”第二位数字作为“叶”,它通过将数据按照数值大小排列,构成一个类似于数字树的图形,以展示数据的分布情况。

茎叶图和次数分布图有类似之处,如茎叶图中的“茎”一栏的数值对应次数分布图中的分组区间,茎叶图拥有次数分布图的直观特性,同时在茎叶图中,我们可以直观地看到所有的数据,这是茎叶图的优势。

茎叶图虽然很有用处,但是我们一般将其视作对数据进行初步处理的一种方法,在正式的报告中,一般不使用茎叶图。

次数分布的形状

对称分布 (symmetrical distribution)

  • 定义:平均值两侧的频率相对于平均值镜面分布。

偏态分布 (skewed distribution)

  • 定义:数据堆积在分布的一端,而另一端成为比较尖细的尾端。

正偏态 (positively skewed)

  • 数据堆积在左侧,尾部在右的偏态分布。其尾端指向 X 轴的正数一端,故称正偏态分布。具有均值大于中位数的特点。

负偏态 (negatively skewed)

  • 数据堆积在右侧,尾部位于左边,则该分布被称为负偏态分布。具有均值小于中位数的特点。

偏态分布反映了数据的非对称性。在处理时,需要采取一些特殊的方法,如对数转换、Box-Cox变换等。

双峰分布 (bimodal distribution)

  • 定义:数据分布中存在两个明显的峰值或高频率区域,即次数集中在两个分数,以致分布曲线出现两个隆起的峰的分布称为双峰分布。

矩形分布 (rectangle distribution)

  • 定义:分布中所有值都是相同频次的分布称为矩形分布

百分位数,百分位等级,插值法

百分位数、百分位等级

百分位等级 (Percentile rank)

某一分布中,分数 (score) 在某一值之下或等于该值的个体所占的百分比。

百分位数 (Percentile)

恰取这一值的分数称为这一百分位等级的百分位数。

例子

有 58% 的同学分数为 7 分或在 7 分下,则分数 X=7 的百分位等级为 58% ,这个分数就是第 58 个百分位数。

注意事项

在某一个案例中,分数有 1 - 5 分,对于分数 4 , 算得其对应的累积百分比是 95% ;但注意,分数 4 意味着一个人得分在 3.5 和 4.5 之间,第 95 百分位数是 4.5 ,而不是 4.0 。

插值法 (Interpolation)

插值法是一种求解两个数值之间某位置数值的方法,其假设是在所求解点的附近1个组距单位区间之内的分数和对应的百分比的变化是线性的。

插值法步骤

假设要求的数值如图所示:

  1. 找到距求解点最近的两个区间(较远的区间不满足分数和对应的百分比线性变化的假设)。
  2. 根据数据列出方程:
7.57.07.56.5=58x5854或者7.06.57.56.5=x545854
  1. 由等式求得结果 x=56

贡献者

页面历史

撰写